A partir del siguiente dataset, se solicita trabajar sobre las siguientes consignas:
Explore y explique en que consiste el dataset utilizando herramientas de exploración de datos.
## 'data.frame': 984 obs. of 8 variables:
## $ ISO.country.code : chr "AFG" "AFG" "AFG" "AFG" ...
## $ Country : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ Sub.national.region : chr "Badakhshan" "Badghis" "Baghlan" "Balkh" ...
## $ World.region : chr "South Asia" "South Asia" "South Asia" "South Asia" ...
## $ MPI.National : num 0.295 0.295 0.295 0.295 0.295 0.295 0.295 0.295 0.295 0.295 ...
## $ MPI.Regional : num 0.387 0.466 0.3 0.301 0.325 0.313 0.319 0.25 0.245 0.384 ...
## $ Headcount.Ratio.Regional : num 67.5 79.3 59.7 55.7 61 65.1 61.4 49.4 47.4 74.6 ...
## $ Intensity.of.deprivation.Regional: num 57.3 58.8 50.3 54.1 53.3 48.1 52 50.6 51.6 51.5 ...
Se puede observar que el dataset consta de 984 entradas y representa el relevamiento de la pobreza mundial. Este hace uso de un índice desarrollado por la Universidad de Oxford, llamado MPI (por su acrónimo en inglés), el cuál permite tener en cuenta variables adicionales a la económica a la hora de determinar la pobreza y el grado de pobreza en el que se encuentra una persona.
The global Multidimensional Poverty Index (MPI) is an international measure of acute multidimensional poverty covering over 100 developing countries. It complements traditional monetary poverty measures by capturing the acute deprivations in health, education, and living standards that a person faces simultaneously.
Aquí los datos están agrupados en 8 columnas de la siguiente manera:
1. Las primeras cuatro columnas son de tipo texto y representan:
Es importante destacar que las primeras tres columnas conforman la PK del dataset, pues permiten identificar unívocamente cualquier tupla.
2. Las últimas cuatro columnas son de tipo numérico y representan:
Calcule las medidas de posición para los atributos numéricos y agrupe los cálculos de acuerdo a la región.
Media, ordenada por región mundial, del MPI nacional:
## dataset$World.region dataset$MPI.National
## 3 Europe and Central Asia 0.0289090909090909
## 4 Latin America and Caribbean 0.0542706422018349
## 1 Arab States 0.110782608695652
## 2 East Asia and the Pacific 0.124328125
## 7 VALOR PROMEDIO 0.204106707317073
## 5 South Asia 0.209049382716049
## 6 Sub-Saharan Africa 0.332030162412993
Media, ordenada por región mundial, del MPI regional:
## dataset$World.region dataset$MPI.Regional
## 3 Europe and Central Asia 0.0252727272727273
## 4 Latin America and Caribbean 0.0636651376146789
## 1 Arab States 0.115286956521739
## 2 East Asia and the Pacific 0.136265625
## 7 VALOR PROMEDIO 0.211330284552846
## 5 South Asia 0.21962962962963
## 6 Sub-Saharan Africa 0.337127610208817
Media, ordenada por región mundial, del porcentaje de gente pobre según el MPI regional:
## dataset$World.region dataset$Headcount.Ratio.Regional
## 4 Latin America and Caribbean 14.2330275229358
## 1 Arab States 23.1069565217391
## 2 East Asia and the Pacific 28.29453125
## 7 VALOR PROMEDIO 40.1844512195122
## 5 South Asia 44.1185185185185
## 3 Europe and Central Asia 6.42727272727273
## 6 Sub-Saharan Africa 61.5206496519722
Media, ordenada por región mundial, en la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:
## dataset$World.region dataset$Intensity.of.deprivation.Regional
## 3 Europe and Central Asia 37.0818181818182
## 4 Latin America and Caribbean 41.5387096774194
## 1 Arab States 42.6539130434783
## 2 East Asia and the Pacific 45.6015625
## 7 VALOR PROMEDIO 47.180976602238
## 5 South Asia 47.6395061728395
## 6 Sub-Saharan Africa 51.8703016241299
Observaciones:
Tanto en el MPI nacional como en el MPI regional, las dos regiones del mundo que se encuentran por debajo de la media son África Sub-Sahariana y Sur de Asia.
En el porcentaje de gente pobre, se repite la ocurrencia -también por debajo de la media- de las dos regiones anteriormente mencionadas y, llamativamente, se suma la región Europa y Asia central.
Nota: la aparición de Europa y Asia central por debajo de la media puede deberse a la baja cantidad de datos relevados acerca de dicha región. No es un dato menor, pues en un conjunto de (e.g) diez valores, un solo outlier puede afectar severamente su media.
África Sub-Sahariana y Sur de Asia también por debajo de la media.Mediana, ordenada por región mundial, del MPI nacional:
## dataset$World.region dataset$MPI.National
## 3 Europe and Central Asia 0.008
## 4 Latin America and Caribbean 0.034
## 1 Arab States 0.045
## 2 East Asia and the Pacific 0.1
## 7 VALOR MEDIANA 0.174
## 5 South Asia 0.196
## 6 Sub-Saharan Africa 0.307
Mediana, ordenada por región mundial, del MPI regional/provincial:
## dataset$World.region dataset$MPI.Regional
## 3 Europe and Central Asia 0.016
## 4 Latin America and Caribbean 0.0375
## 1 Arab States 0.052
## 2 East Asia and the Pacific 0.0995
## 7 VALOR MEDIANA 0.155
## 5 South Asia 0.199
## 6 Sub-Saharan Africa 0.333
Mediana, ordenada por región mundial, del porcentaje de gente pobre según el MPI regional/provincial:
## dataset$World.region dataset$Headcount.Ratio.Regional
## 1 Arab States 12.5
## 2 East Asia and the Pacific 23
## 7 VALOR MEDIANA 33.95
## 3 Europe and Central Asia 4.1
## 5 South Asia 45.2
## 6 Sub-Saharan Africa 66.6
## 4 Latin America and Caribbean 8.95
Mediana, ordenada por región mundial, de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:
## dataset$World.region dataset$Intensity.of.deprivation.Regional
## 3 Europe and Central Asia 36
## 1 Arab States 40.6
## 4 Latin America and Caribbean 41.4
## 2 East Asia and the Pacific 44.7
## 7 VALOR MEDIANA 45.6
## 5 South Asia 46.6
## 6 Sub-Saharan Africa 50.4
Observaciones:
Se sospecha la existencia de un sesgo en el MPI nacional y en el MPI regional respecto a la mediana de la distribución, pues las regiones África Sub-Sahariana y Sur de Asia se encuentran bastante lejos de la misma.
En el porcentaje de gente pobre, se repite con Europa y Asia central lo mismo que ocurrió con la media, se la encuentra por debajo de la mediana. Esta vez, acompañada de Latinoamérica y el Caribe. Sospecha de sesgo.
En la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza, reinciden África Sub-Sahariana y Sur de Asia por debajo de la mediana.
Moda, ordenada por región mundial, del MPI nacional:
## dataset$World.region dataset$MPI.National
## 3 Europe and Central Asia 0.008
## 1 Arab States 0.014
## 2 East Asia and the Pacific 0.066
## 7 VALOR MODA 0.066
## 4 Latin America and Caribbean 0.072
## 5 South Asia 0.295
## 6 Sub-Saharan Africa 0.303
Moda, ordenada por región mundial, del MPI regional:
## dataset$World.region dataset$MPI.Regional
## 3 Europe and Central Asia 0.001
## 1 Arab States 0.003
## 4 Latin America and Caribbean 0.004
## 7 VALOR MODA 0.006
## 2 East Asia and the Pacific 0.053
## 6 Sub-Saharan Africa 0.238
## 5 South Asia 0.294
Moda, ordenada por región mundial, del porcentaje de gente pobre según el MPI regional:
## dataset$World.region dataset$Headcount.Ratio.Regional
## 6 Sub-Saharan Africa 72
## 7 VALOR MODA 6.5
## 5 South Asia 34.5
## 1 Arab States 2.2
## 2 East Asia and the Pacific 13.4
## 4 Latin America and Caribbean 1.2
## 3 Europe and Central Asia 0.4
Moda, ordenada por región mundial, de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:
## dataset$World.region dataset$Intensity.of.deprivation.Regional
## 5 South Asia 48.1
## 6 Sub-Saharan Africa 47.3
## 2 East Asia and the Pacific 42.7
## 7 VALOR MODA 41.9
## 1 Arab States 40.6
## 4 Latin America and Caribbean 39.8
## 3 Europe and Central Asia 33.3
Observaciones:
La obtención de la moda ha sido modificada utilizando la funcion mfv1() en lugar de mfv(). Esto se debe a que el dataset cuenta con varias modas y el valor retornado con mfv() era un vector en vez de un escalar.
La moda del MPI regional es un valor muy bajo.
La región Europa y Asia central posee cinco o más modas en cada variable analizada. Es probable que la causa de lo observado sea la poca cantidad de datos relevados, provocando esto la inexistencia de valores repetidos en alguna tupla.
África Sub-Sahariana es la región mundial más relevada y a la vez tiene ocho modas en su MPI regional. Además, presenta gran amplitud entre la moda mínima y la máxima. Estas observaciones sugieren un gran contraste de realidades entre los habitantes de la región.
CONCLUSIONES:
Se confirma la existencia de un sesgo hacia la derecha sobre la distribución normal de la variable MPI nacional, demostrado tanto por la mediana como la moda. En otras palabras, hay más países pobres que ricos en este dataset.
De igual manera, se confirma también la existencia de un sesgo hacia la derecha sobre la distribución normal de la variable MPI regional A diferencia del anterior, este es muy marcado. La moda del MPI regional es el menor valor de todos que puede tomar la variable, lo que indica que hay muchas regiones por país donde habita gente pobre.
Respecto al porcentaje de gente pobre, determinado por el MPI regional, se observa la repetición de las mismas regiones mundiales África Sub-Sahariana y Sur de Asia siempre por debajo de las medidas de posición. Esto indica que gran parte de la gente pobre vive en dichas regiones del mundo.
Por último, la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza, tiene un cierto sesgo hacia la derecha pero no tan pronunciado como los dos anteriores. Esto indica que de todas las personas relevadas, afortunadamente son pocas las que se encuentran muy por debajo de la línea de la pobreza.
Observación:
Calcular la desviación estándar, la varianza y el rango para cada una de las variables.
Desviación estándar del MPI nacional:
## [1] 0.1602476
Desviación estándar del MPI regional:
## [1] 0.183621
Desviación estándar del porcentaje de gente pobre según el MPI regional:
## [1] 29.9814
Desviación estándar de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:
## [1] 8.047225
Varianza del MPI nacional:
## [1] 0.02567929
Varianza del MPI regional/provincial:
## [1] 0.03371667
Varianza del porcentaje de gente pobre según el MPI regional:
## [1] 898.8845
Varianza de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:
## [1] 64.75784
Rango del MPI nacional:
## [1] 0.006 0.605
## [1] 0.599
Rango del MPI regional:
## [1] 0.000 0.744
## [1] 0.744
Rango del porcentaje de gente pobre según el MPI regional:
## [1] 0 99
## [1] 99
Rango de la distancia promedio a la que se encuentra la gente pobre respecto de la línea de pobreza:
## [1] 33.3 75.9
## [1] 42.6
CONCLUSIONES:
La región con un MPI nacional más simétrico es Sur de Asia, lo que implica que no hay grandes contrastes entre todos los países que la integran. Si continuamos la observación en el Porcentaje de gente pobre se detecta que lo mencionado ocurre porque a lo largo de la región los países poseen entre ~30% y ~60% de pobreza a pesar de tener máximos y mínimos muy amplios.
Con Asia del Este y el Pacífico ocurre algo , sin embargo la existencia de varios outliers vuelven asimétrica a la
Se refuerza lo concluído acerca del MPI nacional de África Sub-Sahariana, y se justifica con el boxplot del MPI regional. Esta región mundial posee un gran contraste de realidades entre sus habitantes pues es quién mayor rango tiene en dichas variables, tal como lo muestran los bigotes de ambos gráficos.
También se refuerza lo concluído con respecto a Europa y Asia central. Sus datos no son representativos, pues se han relevado muy pocas ciudades en comparación con las demás regiones del mundo.
Se observa que el MPI nacional para Estados Árabes tiene pocas regiones nacionales pobres, pues los cuartiles 3 y 4
Respecto a la región Latinoamérica y el Caribe, se observa la existencia de varios outliers negativos en las variables MPI regional y Porcentaje de gente pobre, es decir, hacia el lado de la pobreza. A pesar de que existen ciudades que alcanzan ~75% de pobreza, son consideradas outliers porque el resto de las ciudades relevadas se hallan en muchas mejores condiciones. Esto justifica la aparición de la región -en algunas medidas de posición- por debajo de las mismas.
Se observa una correspondencia directamente proporcional -lineal en el gráfico- entre el MPI regional y el porcentaje de gente pobre, justamente porque la segunda está determinada por los valores de la primera.
Algo similar ocurre entre MPI regional y Distancia promedio debajo del MPI regional, porque también, tal como lo indica su nombre, están estrechamente relacionados al uno delimitar el otro. Gráficamente, la relación se visualiza lineal aunque no tan definida como la mencionada en el ítem anterior.
La variable con mayor dispersión es Porcentaje de gente pobre.
Tanto su varianza como su desviación estándar dan valores muy por encima de las demás variables.
También ocurre lo mismo con su rango, que cubre la totalidad del rango válido de valores, siendo 0% su mínimo valor registrado y siendo 99% el máximo.
Además, algo no menor, el cálculo de su desviación estándar y su varianza arrojan resultados exhorbitantes.
Calcular el coeficiente de relación de todas las variables y explique el resultado. ¿Qué tipo de gráficos describen mejor esta relación entre variables?
Covarianza entre MPI nacional y MPI regional:
## [1] 0.8591325
Covarianza entre MPI regional y porcentaje de gente pobre:
## [1] 0.9839779
Covarianza entre MPI regional y distancia promedio de gente por debajo de la línea de pobreza:
## [1] 0.9446785
Covarianza entre porcentaje de gente pobre y y distancia promedio de gente por debajo de la línea de pobreza:
## [1] 0.9029842
CONCLUSIONES:
Tal como lo observamos en los scatterplots anteriores, y que ahora podemos confirmarlo gracias al cálculo del coeficiente de correlatividad para las 4 variables, MPI regional y Porcentaje de gente pobre son las más relacionadas, puesto que la primera afecta directamente la cantidad de gente que caerá en la segunda. Se reitera, el scatterplot de ambas es contundente.
En segundo lugar, se encuentra la relación entre MPI regional y Distancia promedio debajo del MPI regional también, directamente afectada por el valor del primero. Su scatterplot es similar al de la relación anterior, pero algo más disperso.
En tercer lugar se encuentra la relación entre Porcentaje de gente pobre y Distancia promedio debajo del MPI regional, cuyo scatterplot es muy poco disperso y similar a una recta carente de pendiente.
En último lugar se encuentra la relación entre MPI nacional y MPI regional, cuyo scatterplot es muy disperso.
Tal como se mencionó anteriormente, los scatterplots -que aquí se consiguen ejecutando la función plot()- son muy efectivos para mostrar las relaciones entre dos variables.
También es muy útil el gráfico de coordenadas paralelas, conseguido al ejecutar la función parcoord(). Estos son los que se pueden observar arriba de estos párrafos y permiten graficar varias variables en dos dimensiones y agruparlas (o no) por alguna categoría.
Fin.